尽管在自动语音识别(ASR)中最近的表现方法增加了,但这种方法并不能确保其输出的适当套管和标点符号。这个问题对自然语言处理(NLP)算法和人类的理解都有重大影响。对于原始文本输入的预处理管道,必须进行资本化和标点符号恢复。对于越南人等低资源语言,此任务的公共数据集很少。在本文中,我们为越南人的资本化和标点符号恢复贡献了一个公共数据集;并提出了两个名为intercappunc的任务的联合模型。越南数据集的实验结果显示了我们联合模型的有效性与单个模型和先前的联合学习模型相比。我们在https://github.com/anhtunguyen98/jointcappund上公开发布数据集和模型的实现
translated by 谷歌翻译
神经崩溃的概念是指在各种规范分类问题中经验观察到的几种新兴现象。在训练深度神经网络的终端阶段,同一类的所有示例的特征嵌入往往会崩溃为单一表示,而不同类别的特征往往会尽可能分开。通常通过简化的模型(称为无约束的特征表示)来研究神经崩溃,其中假定模型具有“无限表达性”,并且可以将每个数据点映射到任何任意表示。在这项工作中,我们提出了不受约束的功能表示的更现实的变体,该变体考虑到了网络的有限表达性。经验证据表明,嘈杂数据点的记忆导致神经崩溃的降解(扩张)。使用记忆 - 稀释(M-D)现象的模型,我们展示了一种机制,通过该机制,不同的损失导致嘈杂数据上受过训练的网络的不同性能。我们的证据揭示了为什么标签平滑性(经验观察到产生正则化效果的跨凝性的修改)导致分类任务的概括改善的原因。
translated by 谷歌翻译
基于硬件的加速度是促进许多计算密集型数学操作的广泛尝试。本文提出了一个基于FPGA的体系结构来加速卷积操作 - 在许多卷积神经网络模型中出现的复杂且昂贵的计算步骤。我们将设计定为标准卷积操作,打算以边缘-AI解决方案启动产品。该项目的目的是产生一个可以一次处理卷积层的FPGA IP核心。系统开发人员可以使用Verilog HDL作为体系结构的主要设计语言来部署IP核心。实验结果表明,我们在简单的边缘计算FPGA板上合成的单个计算核心可以提供0.224 GOPS。当董事会充分利用时,可以实现4.48 GOP。
translated by 谷歌翻译
在过去的几十年中,由于其在广泛的应用中,现场文本认可从学术界和实际用户获得了全世界的关注。尽管在光学字符识别方面取得了成就,但由于诸如扭曲或不规则布局等固有问题,现场文本识别仍然具有挑战性。大多数现有方法主要利用基于复发或卷积的神经网络。然而,虽然经常性的神经网络(RNN)通常由于顺序计算而遭受慢的训练速度,并且遇到消失的梯度或瓶颈,但CNN在复杂性和性能之间衡量折衷。在本文中,我们介绍了SAFL,一种基于自我关注的神经网络模型,具有场景文本识别的焦点损失,克服现有方法的限制。使用焦损而不是负值对数似然有助于模型更多地关注低频样本训练。此外,为应对扭曲和不规则文本,我们在传递到识别网络之前,我们利用空间变换(STN)来纠正文本。我们执行实验以比较拟议模型的性能与七个基准。数值结果表明,我们的模型实现了最佳性能。
translated by 谷歌翻译
预测药物 - 药物相互作用(DDI)是使用药物信息和许多对的已知副作用预测一对药物的副作用(不需要的结果)的问题。该问题可以制定为DDI图中每对节点的预测标签(即副作用),其中节点是药物,边缘是用已知标记的相互作用的药物。本问题的最先进方法是图形神经网络(GNN),其利用图中的邻居信息来学习节点表示。然而,对于DDI而言,由于副作用的性质,有许多具有复杂关系的标签。通常的GNN经常将标签固定为不反映标签关系的单热量矢量,并且可能在困难的难度标签中没有获得最高性能。在本文中,我们将DDI标准为一个超图,其中每个HINFEGE是三重:用于药物的两个节点和标签的一个节点。然后,我们呈现CentsMoothie,一个超图神经网络,它通过新颖的中央平滑制剂完全了解节点和标签的表示。我们经验展示了模拟中的CentsMoothie的性能优势以及真实数据集。
translated by 谷歌翻译
我们提出了卡通X(卡通解释),这是一种新的模型 - 不可知解释方法,朝向图像分类器定制,并基于速率 - 失真说明(RDE)框架。自然图像大致是典型的平滑信号 - 也称为卡通图像 - 并且在小波域中倾向于稀疏。CartoonX是通过要求其解释在小波域中的稀疏来利用这一点的第一种解释方法,从而提取图像的\ emph {相关的片状平滑}部分而不是相关的像素稀疏区域。我们实际证明了CartoCX由于其片断平稳性,但在解释错误分类时也特别恰当地展示了CardentX。
translated by 谷歌翻译
我们考虑如何在从流环境中学习贝叶斯模型时有效地使用先验知识,其中数据无限依次出现。这个问题在数据爆炸时代非常重要,富有培训的模型,本体,维基百科等珍贵外部知识的富裕来源非常重要。我们表明一些现有的方法可以忘记任何知识。然后,我们提出了一种新颖的框架,使能够将不同形式的先验知识纳入基础贝叶斯模型的数据流。我们的框架载有一些现有的时序/动态数据的流行模型。广泛的实验表明,我们的框架优于具有大边距的现有方法。特别是,我们的框架可以帮助贝叶斯模型在极短的文本上概括,而其他方法过度装备。我们的框架的实施是在https://github.com/bachtranxuan/tps.git上获得的。
translated by 谷歌翻译
Out-of-distribution (OOD) generalisation aims to build a model that can well generalise its learnt knowledge from source domains to an unseen target domain. However, current image classification models often perform poorly in the OOD setting due to statistically spurious correlations learning from model training. From causality-based perspective, we formulate the data generation process in OOD image classification using a causal graph. On this graph, we show that prediction P(Y|X) of a label Y given an image X in statistical learning is formed by both causal effect P(Y|do(X)) and spurious effects caused by confounding features (e.g., background). Since the spurious features are domain-variant, the prediction P(Y|X) becomes unstable on unseen domains. In this paper, we propose to mitigate the spurious effect of confounders using front-door adjustment. In our method, the mediator variable is hypothesized as semantic features that are essential to determine a label for an image. Inspired by capability of style transfer in image generation, we interpret the combination of the mediator variable with different generated images in the front-door formula and propose novel algorithms to estimate it. Extensive experimental results on widely used benchmark datasets verify the effectiveness of our method.
translated by 谷歌翻译
The introduction of high-quality image generation models, particularly the StyleGAN family, provides a powerful tool to synthesize and manipulate images. However, existing models are built upon high-quality (HQ) data as desired outputs, making them unfit for in-the-wild low-quality (LQ) images, which are common inputs for manipulation. In this work, we bridge this gap by proposing a novel GAN structure that allows for generating images with controllable quality. The network can synthesize various image degradation and restore the sharp image via a quality control code. Our proposed QC-StyleGAN can directly edit LQ images without altering their quality by applying GAN inversion and manipulation techniques. It also provides for free an image restoration solution that can handle various degradations, including noise, blur, compression artifacts, and their mixtures. Finally, we demonstrate numerous other applications such as image degradation synthesis, transfer, and interpolation.
translated by 谷歌翻译
Scene Graph Generation (SGG) serves a comprehensive representation of the images for human understanding as well as visual understanding tasks. Due to the long tail bias problem of the object and predicate labels in the available annotated data, the scene graph generated from current methodologies can be biased toward common, non-informative relationship labels. Relationship can sometimes be non-mutually exclusive, which can be described from multiple perspectives like geometrical relationships or semantic relationships, making it even more challenging to predict the most suitable relationship label. In this work, we proposed the SG-Shuffle pipeline for scene graph generation with 3 components: 1) Parallel Transformer Encoder, which learns to predict object relationships in a more exclusive manner by grouping relationship labels into groups of similar purpose; 2) Shuffle Transformer, which learns to select the final relationship labels from the category-specific feature generated in the previous step; and 3) Weighted CE loss, used to alleviate the training bias caused by the imbalanced dataset.
translated by 谷歌翻译